home *** CD-ROM | disk | FTP | other *** search
/ Skunkware 5 / Skunkware 5.iso / src / X11 / wais / doc / doc-ids.txt < prev    next >
Text File  |  1995-05-09  |  8KB  |  169 lines

  1.  
  2.                 Document Identifiers
  3.                     or
  4.     International Standard Book Numbers for the Electronic Age
  5.  
  6.  
  7.             Brewster Kahle (Brewster@think.com)
  8.                Thinking Machines Corporation
  9.                   September 1991
  10.                 Version 2.2
  11.  
  12.  
  13. An electronic document identifier would allow computers to refer to
  14. documents created and maintained on other computers.  This system is
  15. designed to allow distributed Hypertext systems as well as large electronic
  16. publishing structures.  
  17.  
  18. The doc-id is made up of three fields: a NAME, an ADDRESS, and a
  19. REDISTRIBUTION-DISPOSITION.  Usually the name and address are the same, so
  20. they do not need to be repeated, and the redistribution-disposition is not
  21. required if redistribution is permitted.
  22.  
  23. This document is a proposal for a semantics and syntax for a
  24. doc-id structure.
  25.  
  26. First, a few examples:
  27.    rfp-882:rfp@think.com    means a document was created on the rfp 
  28.                 database on think.com has a document called
  29.                 rfp-882.
  30.    /pub/rfp-822@think.com    means that an FTP name for a file
  31.                 "/pub/rfp-822" from think.com.
  32.                 This name might or might not be valid as an
  33.                 address.
  34.    (rfp-822:rfp@nic.org, rfp-822:rfp-redist@think.com, f)
  35.                    means the original source of the document
  36.                    is on the nic.org host, but it is
  37.                    redistributed from think.com and it
  38.                    free to do further redistribution.
  39.                 The redistributor (rfp-redist@think.com) 
  40.                 is an address that can be used to retrieve
  41.                 the document, but that service in not
  42.                 necessarily on think.com.
  43.    b0-100:rfp-882:rfp@think.com    Bytes 0-100 of this document.
  44.    rfp-822:rfp-redist@think.com:z3950  
  45.                 is a name of a document,  it might work
  46.                 as an address, and if it does, the z3950
  47.                 service is used to access the document
  48.  
  49. As can be seen from the examples there are several levels of short
  50. forms for the full doc-id form:
  51. "(original_local_doc_id:original_database@original_hostname:tcp-port,
  52.   redistributor_local_doc_id:redistributor_database@redistributor_hostname:tcp-port,
  53.   copyright_disposition)"
  54. A further restriction can be attached before the local_doc_id to indicate
  55. a part of a document.
  56.  
  57. To use these identifiers to locate and retrieve the document, a directory
  58. service might is necessary.
  59.  
  60. These identifiers can also be described by the types of uses they are
  61. expected to perform:
  62.    1.  How to get a copy of this document from a WAIS type server?
  63.    2.  From an FTP type server?
  64.    3.  Is redistribution of a copy of the document allowed a copy 
  65.        of it within copyright law?
  66.    4.  Do two document identifiers correspond to the same document?
  67.    5.  How should a reference to a remote document be formatted in
  68.        another document (Hypertext pointer)?
  69.    6.  How do you refer to a piece of a remote document?
  70. These operations can be performed with this structure.
  71.  
  72. The separate fields of a document identifier are defined as:
  73.  
  74.    ORIGINAL and REDISTRIBUTOR fields are another way of saying NAME and
  75. ADDRESS respectively.  The original ID (name) is only useful for recognizing
  76. copies found through different paths.  If a document has not be
  77. redistributed, then the original and redistributor are the same and one can
  78. be eliminated.  The redistributor ID (address) can be used to find the
  79. document.  See the section below on accessing documents using doc-id's.
  80.  
  81.    HOSTNAME (both original and redistributor) (eg. think.com or
  82. 12234343.isdn) is used as a unique name in some defined namespace.  The
  83. function as an address is secondary to that of using it as a unique name to
  84. distinguish naming authorities.  The syntax is an email style such as a
  85. Domain Name System name.  The hostname can be augmented with a tcp port
  86. number or service if the default port is inappropriate for whichever
  87. service is suggested (Z39.50 or FTP for instance).  The syntax would be a
  88. hostname:port (eg. think.com:21 or think.com:ftp).  How to contact that
  89. hostname might not be fully specified by just giving its name (for instance
  90. if a login procedure is necessary, or the hostname is not a network name)
  91. then the database name and hostname can be used to query the directory of
  92. servers to find more information on that database.
  93.  
  94.    DATABASE (both original and redistributor) (eg. rfc) is a name of a
  95. database on a server that can be accessed via WAIS protocol (Z39.50).  This
  96. name could be put in the database field.  These names are picked by the
  97. server.
  98.  
  99.    LOCAL_DOC_ID (both original and redistributor) (eg. rfc-882) is a
  100. string that is created by a database that is an opaque object that is
  101. used by clients to ask for that document from the database sometime
  102. in the future.  If the database decides to delete the underlying
  103. document, then the client is out of luck.
  104.  
  105.    DOCUMENT SECTION is a string that indicates what part of a document is
  106. being referred to (eg.  b0-1000 is bytes [0 1000)).  If it is not present,
  107. then the whole document is assumed.  This syntax allows for different types
  108. of sections to be used, such as "l" for line, "p" for page, "c" for
  109. chapter, "f" for frame, etc.  Only "b" and "l" are specified at this time.
  110.  
  111.    COPYRIGHT_DISPOSITION is a field that describes the redistribution
  112. rights of the document it points to.  This values of field are not fully
  113. specified.  Known value:
  114.     f    Free to redistribute
  115.     r    Restricted, so the doc-id can be redistributed, but the 
  116.         receiver must get the copy from the redistributor itself.
  117. If it is not specified, then f is assumed.
  118.  
  119. The goals are for the doc-id to be:
  120.   1) easy to create unique IDs for documents (without a central authority),
  121.   2) possible to retrieve the document using the ID in many cases
  122.      (serve as an address),
  123.   3) allow users of the IDs to know the copyright intent of the publisher,
  124.   4) allow users to know when they have two references to the same document,
  125.   5) and be terse.
  126.  
  127. Syntax:
  128.   The syntax of the fields follows the email standards.  Thus, if a space
  129. is inbedded in a database name then it can be put in quotation marks (").
  130. (NOTE: I dont know how email handles non-ascii.  I would be be in favor of
  131. using lisp's printing rules so "\125" would be the character 125 in ascii.
  132. The reason for Lisp is that it is well defined).
  133.  
  134.  
  135. Common operations on doc-ids:
  136.  
  137.     Do two doc-id's refer to the same document?  Compare the original
  138. doc-id field to see if they are the same.  If there is only one field (a
  139. shorthand) then that is the original doc-id.
  140.  
  141.     How to I retrieve a document from a doc-id?  The full answer is to
  142. ask the directory of server the question
  143. "redistributor_database@redistributor_hostname:tcp-port" and it will return
  144. a source structure (see another specification for this structure) which
  145. contains contact information.  In many cases, however, the
  146. redistributor_hostname and tcp-port can be used to contact the host
  147. directly to make the retrieval request.  To know if it is an FTP or WAIS
  148. service, there are two indications:
  149.     If the tcp service is specified, use it.
  150.     If there is no redistributor_local_doc_id then it is an FTP doc-id.
  151.         (eg. /pub/foo@think.com as opposed to rfc-23:foo@think.com)
  152.     If the databasename starts with a "~" or "/" then it is a FTP
  153.         filename. (this method is not preferred)
  154.     Otherwise it is a WAIS doc-id.
  155.  
  156.     How do I reference about a database (not a full doc-id)?  Just use
  157. the database@hostname:tcp-port or database@hostname form.  This can be a
  158. handy shorthand in user interfaces.
  159.     
  160.     When can I used shortened forms?  If there is redundant
  161. information, eliminate it.  If the hostname is localhost, for instance, it
  162. can be eliminated, making an ftp-able file from a local machine be just the
  163. pathname.  In a reference in a paper, just use the original doc-id.
  164.  
  165.  
  166. OPEN ISSUES:  Are any of the fields case sensitive?  What is the syntax for
  167. a phonenumber as hostname (eg foo@0116175551212.phone)?  How are non-ascii
  168. characters quoted in these strings (eg \234 for the decimal byte 234)?
  169.